روش های اتصال گرای جدید بر گرفته از سامانه ادراک گفتار انسان به منظور بهبود بازشناسی گفتار ماشینی
Authors
Abstract:
بازشناسی خودکار گفتار در شرایط عدم تطابق دادگان آموزش و آزمون، یکی از چالش های مهم در این مورد است. به منظور کاهش هر چه بیشتر این عدم تطابق، روش های مرسوم، سعی در بهسازی گفتار یا تطابق مدل آماری دارند. در این زمینه از جمله روش های دیگر می توان به آموزش مدل در شرایط مختلف اشاره کرد. موفقیت در این روش ها، در مقابل کارایی سیستم درک و بازشناسی در انسان بسیار ابتدایی به نظر می رسد. در مقاله حاضر با الهام از سیستم درک و بازشناسی در انسان، شبکه عصبی دو سویه جدیدی طراحی و پیاده سازی شده است. این شبکه قادر است تا با اتصالات بازگشتی ضمن مدل سازی دنباله واج نظیر کلمات مجزا، طی تکرارهای مختلف، دنباله واج استخراج شده از مدل صوتی را به دنباله واج مطلوب، اصلاح کند. برای این منظور پس از پیاده سازی روش مذکور بر روی 400 کلمه مجزا از دادگان فارس دات تلفنی، در بهترین حالت، افزایش %16.9 در صحت بازشناسی واج مدل صوتی مشاهده شد. تشکیل بستر جذب در این شبکه عصبی دو سویه، از مزایای این شبکه در برابر شبکه های عصبی تک سویه است. در ادامه، به کمک متوالی کردن مدل واژگانی مذکور با مدل صوتی، متغیرهای بازنمایی بر اساس روش های معکوس سازی شبکه های عصبی اصلاح گردید. بهسازی گفتار با این روش نتایج قابل ملاحظه ای در کاهش عدم تطابق دادگان آزمون و آموزش در پی داشت. در این مقاله کارایی مدل واژگانی و بهسازی گفتار در قالب افزایش صحت بازشناسی واج به میزان %18 نسبت به مدل صوتی نشان داده شده است.
similar resources
ارائه یک روش جدید بازیابی اطلاعات مناسب برای متون حاصل از بازشناسی گفتار
In this article a pre-processing method is introduced which is applicable in speech recognized texts retrieval task. We have a text corpus, t generated from a speech recognition system and a query as inputs, to search queries in these documents and find relevant documents. A basic problem in a typical speech recognized text is some error percentage in recognition. This, results erroneously ass...
full textروشی جدید در بازشناسی مقاوم گفتار مبتنی بر دادگان مفقود با استفاده از شبکه عصبی دوسویه
Performance of speech recognition systems is greatly reduced when speech corrupted by noise. One common method for robust speech recognition systems is missing feature methods. In this way, the components in time - frequency representation of signal (Spectrogram) that present low signal to noise ratio (SNR), are tagged as missing and deleted then replaced by remained components and statistical ...
full textتشخیص احساسات از سیگنال های گفتار براساس روش های فیلتر
گفتار ابزار اولیه ارتباط بین انسان میباشد. با افزایش تراکنش میان انسان و ماشین نیاز به محاوره خودکار این دو و حذف کاربر انسانی مورد توجه قرار گرفته است.هدف از انجام این تحقیق، تعیین یک مجموعه از ویژگیهای تاثیر گذار در تشخیص احساسات مبتنی بر سیگنال صحبت میباشد. در این مقاله، سیستمی طراحی گردید که شامل سه بخش اصلی، استخراج ویژگی، انتخاب ویژگی و طبقهبندی میباشد. پس از استخراج ویژگیهای پرکا...
full textبهبود کیفیت گفتار مبتنی بر بهینهسازی ازدحام ذرات با استفاده از ویژگی های ماسک گذاری سیستم شنوائی انسان
چکیده: در این مقاله، روشهای دوکاناله جدید زیرفضایی سیگنال با استفاده از تکنیکهای حذف نویز ادراکی برای بهبود کیفیت سیگنال گفتار پیشنهاد شدهاند. روشهای پیشنهادی از مشخصات ماسکگذاری سیستم شنوایی انسان برای کاهش نویز باقیمانده قابلشنیدن بهره میگیرند. روش تجزیه به مقادیر منفرد کسری ادراکی، تکنیک بهینهسازی ذرات را برای تخمین نویز جمعی استفاده میکند. نتایج شبیهسازی دقیقی که توسط دو معیار مخ...
full textمروری سیستماتیک بر بازشناسی احساسات از طریق چهره و آهنگ گفتار در افراد مبتلا به پارکینسون
مقدمه و اهداف امروزه درک عواطف موجود در چهره و آهنگ گفتار به عنوان یک عملکرد عاطفی موثر در انتقال پیامهای ارتباطی شناخته شده است. در بیماران مبتلا به پارکینسون درک عواطف نسبت به کاربرد آن، کمتر مورد توجه محققان واقع شده است؛ لذا مطالعه حاضر با هدف مرور پژوهشهای مرتبط با عملکرد بیماران مبتلا به پارکینسون در بازشناسی احساسات از طریق چهره و آهنگ گفتار صورت گرفت. م</str...
full textMy Resources
Journal title
volume 1 issue 3
pages 201- 213
publication date 2007-11-22
By following a journal you will be notified via email when a new issue of this journal is published.
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023